绿洲对谈袁粒教授:下一个变革前,保留火种
从语言到视觉,有多远的路要走,下一个大模型的变革会在何方?
今天我们分享与北大信息工程学院助理教授,博士生导师袁粒教授的对谈,Enjoy
绿洲:您主攻的领域和研究的重点方向是哪些?
袁教授:我的研究主要集中在计算机视觉以及多模态机器学习。我在博士时期原来是纯计算机视觉为主的研究,当时就发现整个研究领域出现了大的趋势变化,让我感悟到模型从小到大,除了数据量变大之外,一个更显著的特点是从单模态往跨模态向更广的多模态上走,另一个特点是从有监督学习到无监督学习的范式过渡。
于是在读博的中后期,我的研究重点之一转向了如何找一个统一模型,这个模型需要在视觉、在 NLP (自然语言处理)、在不同的数据模态上都能表现出良好的性能。在做了大量的实验和研究之后,发现 CV 里的模型并不适合 NLP,NLP 里的 Transformer 反而也许可以做视觉任务。于是我的研究重点转向如何将 Transformer 用在视觉任务上。
绿洲:在大模型的发展过程中,视觉图像和 NLP 是可以融合的么?
袁教授:我读博期间这已经是大趋势:从不同模型走向同一个模型。现在两者已经走向融合了。众所周知 LLM(大语言模型)已经做得很好,视觉大模型也开始涌现。当然 GPT-4 虽然是一个多模态模型,但是它对外开放的接口是单模态的,只有语言,没有视觉。未来如果出现真正可以用起来的多模态大模型,它势必会带来更丰富的想象力。
绿洲:现在还没有做出多模态大模型的原因在哪里呢?
袁教授:多模态的任务比单模态的任务更难,数据也稀缺。做单模态任务需要搜集的数据相对来说肯定要简单一些。搜集多模态的数据,你要考虑这些模态的数据是否应该匹配,涉及到更复杂的算法设计,当然还有成本的问题。目前对于文本和视觉的数据比较多,但是对于其他单模态的数据量还是远远不够的。
绿洲:您开发 ChatExcel 的长远思考是什么?
绿洲:中美之间计算机视觉的应用场景会有比较大的区别么?
袁教授:我觉得应该比较类似,尤其是自动驾驶,全世界,至少中美都瞄准了这个领域。其他领域各国大同小异,本质上我认为不会有太大的差别。
绿洲:在视觉领域,有什么“简单方法”可以去判断一个新论文/方法是否靠谱?
袁教授:最简单的就是看这个工作课题组是否靠谱,以往的开源做得好不好,是否曾经有过学术不端的行为。可以去 Papers With Code 这个平台上看下复现的论文代码多不多,越多一般越靠谱;还有 GitHub 上的 star 数量和 fork 数量越多相对越靠谱,但这些都只是很量化的标准,更多的需要专业领域人来判断。
绿洲:最近市场上关于大模型走到天花板的问题,您怎么看?
袁教授:这只是一个小回落,而且回落得不厉害,这只是新事物发展的必然阶段,到达高潮之后会有一个轻微的回落。这波 ChatGPT 是给 AI 续命,对从业者或者研究领域的人而言,都是一针强心剂。这个圈子里,大家已经很久没有那么激动了,对整个行业来说是件好事。只是研究者需要思考整个研究的范式是否要做改变,这是我们要深入思考的问题。
绿洲:大模型的下一个大变革在哪里?
袁教授:没有人能百分百预测准。一边大模型要继续发展,我们也同时要思考它的能力,如果真的很快见顶,那我们只能在其之上做应用和小创新。下一个大变革应该在哪儿?每个 AI 从业者和研究者都要思考这个问题。有人预测再过几年互联网上的语料就不够用来训练大模型了,语料不足是否会影响语言类大模型的发展?目前还没有真正的视觉大模型,所以我们还是有很高的期待,大模型还远远没走到头,我们需要思考是否有其他的路去发展。比如训练语言大模型都已经需要那么多算力,训练视觉大模型的算力可能是指数级增长,目前的算力是否能跟上?要把全世界所有的 GPU 集中在一起去训练一个大模型,显然不太可能。尤其是国情差异等大环境下,训练本身就是一个问题。当然视觉大模型,或者多模态大模型不会像我们期望得来得那么快,也许只是因为我们的想象太贫瘠。如果英伟达可以继续在算力上进行突破,可能这条路就更短一些。
图像描述和 VQA,尤其是 VQA,我觉得可能是多模态任务皇冠上的明珠。VQA 任务为什么这么重要?如果 VQA 任务做到极致,有这种模型,任何一张图片,一个视频送进去,VQA 能告诉我分割、检测、描述等等所有的信息,那就等于所有的视觉任务都解决了,那才是真正的多模态,才真正见底。那时候见底了都无所谓,因为已经到了天马行空的状态。当然前提还是算力和数据的结合,如果这两者都能突破想象,那这个模型也许不会太晚才到。
同时 AI 的研究者也要思考低功耗的问题。目前功耗那么大,要出现真正超级智能的多模态大模型,可能集中全球的算力都不够。那时候是否要走另一条路,比如是否在底层的模型上要做革命,找一个泛化性强同时功耗低,训练成本低的一个大模型。
绿洲:您理想中的多模态的终极状态是怎样的?
袁教授:强且低功耗,就像人类大脑,人类大脑只有 20 多瓦,泛化性强。当然人类虽然泛化性很强,但单个任务的性能肯定没有垂直领域的大模型强。
绿洲 :如何看待这波 GPT 出现的智能涌现?
袁教授:最简单的例子,当年计算器出现的时候,速度精度比人类快太多了,但是数学家并没有因此失业。计算器强不意味着不需要数学家了。大模型的智能涌现,具备了一定的智能行为,但是人类被机器超越早就不是新鲜事了,譬如AlphaGo,譬如深蓝。有些行业中的一部分工作可能会被替代,这是人类历史发展的主旋律,没有必要觉得恐惧。新行业出现,旧行业消亡,汽车代替马车,驾驶员代替车夫,未来真正的自动驾驶出现,驾驶员消失,肯定还会诞生其他行业。如果说没有工作了,人类会进入更高的状态,真正的 AI 革命生产力的时候,短期的阵痛并不会取代长期取得的变革成果。
GPT 系列在多任务上更像人类,我觉得这是它的训练方式造成的,为什么它会一本正经地胡说八道,因为训练方式就是让它正经,但不解决事实性,只是让人觉得,好像是人类和我在对话。这的确可能导致了一些恐怖谷的效应。
绿洲:您对生物大模型有什么看法?
袁教授:生物大模型走的路是低功耗,但是这条路任重道远,因为首先业界和学术界的关注太少,从业者太少,发展速度必然会减缓;第二对硬件的需求会更大,它并非基于冯诺依曼架构,我们需要高效的神经形态芯片进行训练,在 GPU 上训练的效率不高。生物大模型是需要软硬结合协同发展的领域。因为关注度不够,我希望能有更多的人去关注,并推动这个行业。AI 发展是个资源密集型行业,当企业认为发展路径过长,就不会投入资源,那只能靠学术界去推动,这也正是学术界存在的意义。学术界是保留火种的地方。当大家都在关注大模型做应用和创新的时候,学术界更要冷静地看待这件事,同时需要知道我们是否要保留火种。当这一代大模型走到头的时候,学术界回头来看,也许还能将更多的可能性向前推。学术界需要以更底层的创新导向,长期主义地向前发展。
绿洲:神经形态芯片领域,国内外有啥值得关注的研究者吗?
袁教授:国内有北大黄铁军教授、田永鸿教授;清华的施路平教授;中科院自动化所李国齐教授;浙大潘云鹤院士等。海外有 UCSD 的 Gert Cauwenberghs 教授,耶鲁大学的 Priyadarshini (Priya) Panda 教授,哈佛大学的 Hongkun Park 教授等。
参赞生命力
你觉得什么是科技生命力? 学术界是保留科技火种的地方。 —— 袁粒教授 北大信息工程院
绿洲资本是中国新一代风险投资机构,致力于发现中国未来十年最有生命力的企业家,并与他们共同成长,创造长期价值。 “参赞生命力”是绿洲的愿景和使命。这种生命力(Vitality),既是时代结构性变革的方向,亦是企业家坚韧和进化的力量。
绿洲资本专注于早期和成长期投资,单笔投资300万到3000万美金,重点投资机器人、人工智能、科技服务等领域,助力中国科技驱动的新服务升级。